查看原文
其他

Open Interpreter 本地模型深度体验:功能升级,离 LLM OS 还有多远?

思辨view kate人不错
2024-07-24

引言

今年1月,我详细介绍过Open Interpreter。几个月过去了,它有了很多更新,今天再来详细介绍一下。

Open Interpreter功能

  1. 文件和代码操作:1) 管理文件和文件夹:复制、移动、删除、查找文件等。2) 编写和运行代码:支持多种编程语言,如 Python、JavaScript 等。3) 自动化任务:编写脚本自动执行重复性操作。
  2. 系统交互:1) 获取系统信息:查看硬件规格、网络状态、运行进程等。2) 控制应用程序:打开、关闭、监控应用程序。3) 执行命令行指令:无需离开当前界面即可执行系统命令。
  3. 数据处理和分析:1) 读取和处理数据:从文件、数据库、网络获取数据。2) 数据清洗和转换:整理、过滤、格式化数据。3) 数据分析和可视化:进行统计分析,生成图表展示数据规律。
  4. 网络和互联网操作:1) 下载和上传文件:从网络下载文件,或将本地文件上传到服务器。2) 发送邮件:自动发送邮件通知或报告。3) 网页抓取:从网页提取数据。
  5. 设计和多媒体:1) 网站设计:使用 HTML、CSS 和 JavaScript 设计简单的网站。2) 照片编辑:使用 PIL 或 OpenCV 等 Python 库完成基本的图片编辑任务。3) 视频处理:使用 Python 的 MoviePy 库编写脚本以完成基本的视频处理任务。4) 创建动画:使用 JavaScript 或 CSS 创建基本动画。5) 用户界面设计:为应用程序设计简单的用户界面。

新的模型命令

Groq(免费的API)

interpreter --api_base "https://api.groq.com/openai/v1" --api_key "xxx" --model "llama3-70b-8192" --context_window 8192

together ai/llama3 70B (注册送25$)

export TOGETHER_API_KEY=xxx
interpreter --model together_ai/META-LLAMA/LLAMA-3-70B-CHAT-HF --context_window 8192

Claude

export ANTHROPIC_API_KEY=xxx

interpreter --model anthropic/claude-3-haiku-20240307

interpreter --model anthropic/claude-3-opus-20240229

此外,Open Interpreter 官方还推出Local III 。

Local III 引入了一个免费托管的可选模型 i(现阶段是 Llama3-70B ),用户与 i 模型的对话将用于训练 Open Interpreter 自己的开源计算机控制语言模型。在开源模型和训练集之前,Open Interpreter将删除个人身份信息。

interpreter --model i

Open Interpreter Local III 更新

新闻链接:

https://changes.openinterpreter.com/log/local-iii

记得使用新功能前,先pip install --upgrade open-interpreter

Open Interpreter 官方放了2个视频,很有意思。

interpreter --local --vision

图片重命名

视频显示的是一个Mac电脑的桌面截图,其中有两个文件夹和一个终端窗口。

  • 左侧有两个文件夹:一个名为“TB Negative”,另一个名为“TB Positive”。
  • 终端窗口中显示了一条命令和一些文本内容:
$ interpreter --codestral
> Could you train a model to identify tuberculosis using the lung scan PNGs in these two folders? Please split into train/test folders first. /Users/kilianlucas/Desktop/TB Negative /Users/kilianlucas/Desktop/TB Positive

这段文本的意思是请求解释器(interpreter)训练一个模型来识别肺部X光片中的结核病(tuberculosis)。它要求先将这两个文件夹中的PNG图像分成训练(train)和测试(test)文件夹,然后进行训练。

此次更新总结

包括:

  • 易于使用的本地模型浏览器
  • 与 Ollama 等推理引擎深度集成
  • 为 Llama3、Moondream 和 Codestral 等开源模型提供自定义配置文件
  • 一套提高离线代码解释可靠性的设置

本地模型浏览器

Local III 使本地模型的使用变得前所未有的容易。通过交互式设置,用户可以:

  • 选择推理提供器
  • 选择模型
  • 下载新模型

使用以下标志启动本地模型浏览器:

interpreter --local

优化配置文件

Open Interpreter 团队对两个 SOTA 本地语言模型 codestral 和 llama3 进行了广泛的实验。用户可以使用以下标志配置 Open Interpreter 以使用推荐设置:

interpreter --profile codestral.py # 为 Codestral 设置最佳设置
interpreter --profile llama3.py # 为 Llama3 设置最佳设置
interpreter --profile qwen.py # 为 Qwen 设置最佳设置

注意profile 标志将从 profiles 目录中的文件加载设置,用户可以通过运行以下命令打开该目录:

interpreter --profiles

本地视觉

发送到本地模型的图像将呈现为由 Moondream(一种小型视觉模型)生成的图像描述。该模型还会接收从图像中提取的 OCR

interpreter --local --vision

实验性本地操作系统模式

通过启用本地视觉,Local III 还启用了实验性本地操作系统模式支持。

在此模式下,Open Interpreter 可以控制用户的鼠标、键盘并查看屏幕。LLM 可以通过单击由开源 Point 模型识别的图标与用户的计算机进行交互。

interpreter --local --os

我的使用体验

interpreter --local --vision

图片重命名

interpreter调用的是Moondream视觉模型,我在之前的文章中介绍过Moondream。

给图片加水印


interpreter --local

给文件分类

由于我的下载目录文件太多,想了解有哪些文件组成,于是就让Open Interpreter帮我处理。

这里用的是本地codestral模型。

查询计算机空间使用情况

画图表

获取英伟达股价会出错

我试了本地的codestral、llama3  8B、yi:9b和API接入的Claude Opus都没有成功。

下载视频

小技巧,指明一个优秀的库让LLM使用,就成功了一半。

总结文章

我本地的LLM都不能总结文章,换成llama 3 70B也不行,Claude haiku和Opus都可以。

处理视频

本地LLM和Claude haiku还有不少差距,例如下图所示,haiku会先判断我的电脑是否已安装FFmpeg,本地LLM会先直接让我安装。

interpreter --local --os 

该模式还不是很稳定

不能完成打开 typora 并新建文件的任务。

结语

根据我的使用体验,我很喜欢Open Interpreter自动分解任务,自动写代码,并自动反思错误的方式,当然,现在它还有很多问题。

最好搭配它的模型是GPT-4和Claude Opus,它的缺点很明显,就是太贵。如果用本地LLM,会遇到很多瓶颈,如你很熟悉各种库,那是可以明确告诉Open Interpreter让它帮你完成任务,如果不熟悉,就会很容易陷在死循环里。

Open Interpreter现在能完整的任务还比较简单,离LLM OS还有很远距离。

类似Open Interpreter的还有GitHub Copilot 的命令行界面(CLI),我之前也介绍过。

明天我会介绍另一个类似Open Interpreter的命令行AI工具,敬请期待。

欢迎在评论区留言,让我们一起交流进步。

精选历史文章,请看这里:

Open Interpreter:自然语言界面控制计算机 | 分享使用体验

实测在Mac上使用Ollama与AI对话的过程 - 模型选择、安装、集成使用记,从Mixtral8x7b到Yi-34B-Chat

LM Studio-简化安装和使用开源大模型 | OpenAI API 文字转语音本地运行程序分享

Jan:一款简洁界面的本地AI桌面应用

GitHub Copilot 的命令行界面(CLI)版本现已正式发布 | 使用指南

继续滑动看下一个
kate人不错
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存